概述与架构演进图景
我们从AlexNet的基础性成功,过渡到超深卷积神经网络(CNN)的时代。这一转变要求深刻的架构创新,以应对极端深度带来的挑战,同时保持训练的稳定性。我们将分析三种具有里程碑意义的架构——VGG、GoogLeNet(Inception)以及ResNet——理解它们如何分别解决扩展性问题的不同方面,为本课后续内容中对模型可解释性的严格分析奠定基础。
1. 结构简洁性:VGG
VGG引入了通过使用极其一致且微小的核尺寸(仅限于3×3卷积核堆叠)来最大化深度。尽管计算成本高昂,但其结构的一致性证明,通过极小的架构变化实现的原始深度是性能提升的主要驱动力,从而巩固了小感受野的重要性。
2. 计算效率:GoogLeNet(Inception)
GoogLeNet通过优先考虑效率和多尺度特征提取,有效应对了VGG的高计算成本。其核心创新是Inception模块,它并行执行卷积(1×1、3×3、5×5)和池化操作。关键在于,它利用1×1卷积作为瓶颈,在昂贵的操作之前大幅减少参数量和计算复杂度。
核心工程挑战
问题 1
哪种架构通过主要使用3×3滤波器强调结构一致性以最大化深度?
问题 2
1×1卷积在Inception模块中的基本用途是什么?
关键挑战:梯度消失
优化的工程解决方案
解释ResNet的恒等映射如何从根本上解决梯度消失问题,而不仅仅是依赖改进的权重初始化或批归一化等技术。
Q1
描述跳跃连接在反向传播过程中如何稳定梯度流动的机制。
解答:
跳跃连接在输出中引入了一个恒等项($+x$),在导数路径中形成一个加性项($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$)。该项确保了梯度信号有直接路径回传,保证上游权重始终接收到非零且可用的梯度信号,无论残差函数$F(x)$的梯度多么微小。
跳跃连接在输出中引入了一个恒等项($+x$),在导数路径中形成一个加性项($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$)。该项确保了梯度信号有直接路径回传,保证上游权重始终接收到非零且可用的梯度信号,无论残差函数$F(x)$的梯度多么微小。